智能论文笔记

Temporal Output Discrepancy for Loss Estimation-based Active Learning

Siyu Huang , Tianyang Wang , Haoyi Xiong , Bihan Wen , Jun Huan , Dejing Dou

分类：计算机视觉 | 机器学习

2022-12-20

While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion for active learning. Due to the simplicity of TOD, our methods are efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks. In addition, we show that TOD can be utilized to select the best model of potentially the highest testing accuracy from a pool of candidate models.

translated by 谷歌翻译

Interpretable Edge Enhancement and Suppression Learning for 3D Point Cloud Segmentation

Haoyi Xiu , Xin Liu , Weimin Wang , Kyoung-Sook Kim , Takayuki Shinohara , Qiong Chang , Masashi Matsuoka

分类：计算机视觉

2022-09-20

3D点云可以灵活地表示连续表面，可用于各种应用；但是，缺乏结构信息使点云识别具有挑战性。最近的边缘感知方法主要使用边缘信息作为描述局部结构以促进学习的额外功能。尽管这些方法表明，将边缘纳入网络设计是有益的，但它们通常缺乏解释性，使用户想知道边缘如何有所帮助。为了阐明这一问题，在这项研究中，我们提出了以可解释方式处理边缘的扩散单元（DU），同时提供了不错的改进。我们的方法可以通过三种方式解释。首先，我们从理论上表明，DU学会了执行任务呈纤维边缘的增强和抑制作用。其次，我们通过实验观察并验证边缘增强和抑制行为。第三，我们从经验上证明，这种行为有助于提高绩效。在具有挑战性的基准上进行的广泛实验验证了DU在可解释性和绩效增长方面的优势。具体而言，我们的方法使用S3DIS使用Shapenet零件和场景分割来实现对象零件分割的最新性能。我们的源代码将在https://github.com/martianxiu/diffusionunit上发布。

translated by 谷歌翻译

GLARE: A Dataset for Traffic Sign Detection in Sun Glare

Nicholas Gray , Megan Moraes , Jiang Bian , Allen Tian , Alex Wang , Haoyi Xiong , Zhishan Guo

分类：计算机视觉 | 机器学习

2022-09-19

实时机器学习检测算法通常在自动驾驶汽车技术中发现，并依赖优质数据集。这些算法在日常条件以及强烈的阳光下都能正常工作。报告表明，眩光是撞车事故最突出的两个最突出的原因之一。但是，现有的数据集，例如LISA和德国交通标志识别基准，根本不反映Sun Glare的存在。本文介绍了眩光交通标志数据集：在阳光下重大视觉干扰下，具有基于美国的交通标志的图像集合。眩光包含2,157张带有阳光眩光的交通标志图像，从33个美国道路录像带中拉出。它为广泛使用的Lisa流量标志数据集提供了必不可少的丰富。我们的实验研究表明，尽管几种最先进的基线方法在没有太阳眩光的情况下对交通符号数据集进行了训练和测试，但在对眩光进行测试时，它们遭受了极大的痛苦（例如，9％至21％的平均图范围为9％至21％。，它明显低于LISA数据集上的性能）。我们还注意到，当对Sun Glare中的交通标志图像进行培训时，当前的架构具有更好的检测准确性（例如，主流算法平均42％的平均地图增益）。

translated by 谷歌翻译

AA-Forecast: Anomaly-Aware Forecast for Extreme Events

Ashkan Farhangi , Jiang Bian , Arthur Huang , Haoyi Xiong , Jun Wang , Zhishan Guo

分类： (统计)机器学习 | 机器学习

2022-08-21

时间序列模型通常处理极端事件和异常，这两者都在现实世界数据集中普遍存在。这样的模型通常需要提供仔细的概率预测，这对于诸如飓风和大流行等极端事件的风险管理至关重要。但是，自动检测并学习对大规模数据集使用极端事件和异常，这是一项挑战，这通常需要手动努力。因此，我们提出了一个异常的预测框架，该框架利用了先前看到的异常作用来提高其在极端事件存在期间和之后的预测准确性。具体而言，该框架会自动提取异常，并通过注意机制将其合并，以提高其未来极端事件的准确性。此外，该框架采用动态不确定性优化算法，以在线方式降低预测的不确定性。所提出的框架表现出一致的卓越精度，而在三个数据集上，与当前预测模型相比，三个具有不同异常的数据集的不确定性。

translated by 谷歌翻译

$\textbf{P$^2$A}$: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos

Jiang Bian , Qingzhong Wang , Haoyi Xiong , Jun Huang , Chen Liu , Xuhong Li , Jun Cheng , Jun Zhao , Feixiang Lu , Dejing Dou

分类：计算机视觉 | 机器学习

2022-07-26

尽管深度学习已被广泛用于视频分析，例如视频分类和动作检测，但与体育视频的快速移动主题进行密集的动作检测仍然具有挑战性。在这项工作中，我们发布了另一个体育视频数据集$ \ textbf {p $^2 $ a} $ for $ \ usewessline {p} $ \ in $ \ usepline {p} $ ong- $ \ $ \ usepline {a} $ ction ction ction检测，由2,721个视频片段组成，这些视频片段从世界乒乓球锦标赛和奥林匹克运动会的专业乒乓球比赛的广播视频中收集。我们与一批乒乓球专业人士和裁判员合作，以获取出现在数据集中的每个乒乓球动作，并提出两组动作检测问题 - 行动定位和行动识别。我们使用$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ fextbf {p $^2 $^2 $^2 $ a^2 $^2 $ a^2 $^2 $ a^2 $ a^2 $^$^2 $ a^2 $^2 $ a^2 $^2 $ a^2 $^2 $ a^2 $^2 $^2 $ a^2 $^2 $ a^2 $^2 $^2 $^2 $^2 $^2 $^2 $ a在各种设置下，这两个问题的$} $。这些模型只能在AR-AN曲线下实现48％的面积，以进行本地化，而识别次数为82％，因为Ping-Pong的动作密集具有快速移动的主题，但广播视频仅为25 fps。结果证实，$ \ textbf {p $^2 $ a} $仍然是一项具有挑战性的任务，可以用作视频中动作检测的基准。

translated by 谷歌翻译

Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training of Image Segmentation Models

Xuhong Li , Haoyi Xiong , Yi Liu , Dingfu Zhou , Zeyu Chen , Yaqing Wang , Dejing Dou

分类：计算机视觉 | 机器学习

2022-07-04

虽然微调预训练的网络已成为训练图像分割模型的流行方式，但这种用于图像分割的骨干网络经常使用图像分类源数据集（例如ImageNet）进行预训练。尽管图像分类数据集可以为骨干网络提供丰富的视觉特征和歧视能力，但它们无法以端到端的方式完全预训练目标模型（即骨干+分割模块）。由于分类数据集中缺乏分割标签，因此在微调过程中进行分割模块在微调过程中随机初始化。在我们的工作中，我们提出了一种利用伪语义分割标签（PSSL）的方法，以启用基于分类数据集的图像分割模型的端到端预训练。 PSSL的启发是受到观察的启发，即通过CAM，Smoothgrad和Lime等解释算法获得的分类模型的解释结果将接近视觉对象的像素簇。具体而言，通过解释分类结果并汇总了从多个分类器查询的解释集合来降低单个模型引起的偏差，从而为每个图像获得PSSL。使用PSSL，对于ImageNet的每个图像，提出的方法都利用加权分割学习程序来预先培训分割网络。实验结果表明，在Imagenet伴随PSSL作为源数据集的情况下，提出的端到端预训练策略成功地增强了各种分割模型的性能，即PSPNET-RESNET50，DEEPLABV3-RESNET50和OCRNET-HRNET-HRNETENET-HRNETENET-HRNETENET-HRNETENET-HRNETW18，和在许多细分任务上，例如CAMVID，VOC-A，VOC-C，ADE20K和CityScapes，并有重大改进。源代码可在https://github.com/paddlepaddle/paddleseg上使用。

translated by 谷歌翻译

Pareto Optimization for Active Learning under Out-of-Distribution Data Scenarios

Xueying Zhan , Zeyu Dai , Qingzhong Wang , Qing Li , Haoyi Xiong , Dejing Dou , Antoni B. Chan

分类：机器学习

2022-07-04

基于池的主动学习（AL）通过依次从大型未标记数据池中选择信息的未标记样本并从Oracle/Ontoter中查询标签，从而取得了巨大成功。但是，现有的AL采样策略可能在分布外（OOD）数据方案中无法很好地工作，其中未标记的数据池包含一些不属于目标任务类别的数据示例。在OOD数据情景下实现良好的AL性能是一项具有挑战性的任务，因为Al采样策略与OOD样本检测之间的自然冲突。 Al选择很难由当前基本分类器进行分类的数据（例如，预测类概率具有较高熵的样品），而OOD样品往往具有比分布更均匀的预测类概率（即高熵）（即高熵）（ID ）数据。在本文中，我们提出了一种采样方案，即用于主动学习的蒙特 - 卡洛帕累托优化（POAL），该方案从未标记的数据库中选择了具有固定批次大小的未标记样品的最佳子集。我们将AL采样任务施加为多目标优化问题，因此我们基于两个冲突的目标利用Pareto优化：（1）正常的AL数据采样方案（例如，最大熵）和（2）作为OOD样本。实验结果表明其对经典机器学习（ML）和深度学习（DL）任务的有效性。

translated by 谷歌翻译

Enhancing Local Geometry Learning for 3D Point Cloud via Decoupling Convolution

Haoyi Xiu , Xin Liu , Weimin Wang , Kyoung-Sook Kim , Takayuki Shinohara , Qiong Chang , Masashi Matsuoka

分类：计算机视觉

2022-07-04

由于缺乏连接性信息，对局部表面几何形状进行建模在3D点云的理解中具有挑战性。大多数先前的作品使用各种卷积操作模拟本地几何形状。我们观察到，卷积可以等效地分解为局部和全球成分的加权组合。通过这种观察，我们明确地将这两个组件解散了，以便可以增强局部的组件并促进局部表面几何形状的学习。具体而言，我们提出了Laplacian单元（LU），这是一个简单而有效的建筑单元，可以增强局部几何学的学习。广泛的实验表明，配备有LU的网络在典型的云理解任务上实现了竞争性或卓越的性能。此外，通过建立平均曲率流之间的连接，基于曲率的LU进行了进一步研究，以解释LU的自适应平滑和锐化效果。代码将可用。

translated by 谷歌翻译

Enhancing Local Feature Learning Using Diffusion for 3D Point Cloud Understanding

Haoyi Xiu , Xin Liu , Weimin Wang , Kyoung-Sook Kim , Takayuki Shinohara , Qiong Chang , Masashi Matsuoka

分类：计算机视觉

2022-07-04

由于缺乏连接性信息，即边缘，学习点云是具有挑战性的。尽管现有的边缘感知方法可以通过建模边缘来改善性能，但边缘如何促进改进尚不清楚。在这项研究中，我们提出了一种自动学习以增强/抑制边缘的方法，同时保持其工作机制清晰。首先，我们从理论上弄清楚边缘增强/抑制作用是如何工作的。其次，我们通过实验验证边缘增强/抑制行为。第三，我们从经验上表明这种行为可以提高性能。通常，我们观察到所提出的方法在点云分类和细分任务中实现了竞争性能。

translated by 谷歌翻译

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

Linxi Fan , Guanzhi Wang , Yunfan Jiang , Ajay Mandlekar , Yuncong Yang , Haoyi Zhu , Andrew Tang , De-An Huang , Yuke Zhu , Anima Anandkumar

分类：机器学习 | 人工智能 | 自然语言处理 | 计算机视觉

2022-06-17

自主代理在Atari Games等专业领域取得了长足的进步。但是，他们通常在具有有限和手动构想的目标的孤立环境中学习Tabula Rasa，因此未能跨越各种任务和能力。受到人类如何不断学习和适应开放世界的启发，我们主张建立通才代理的三位一体：1）一个支持多种任务和目标的环境，2）多模式知识的大规模数据库和3个数据库）灵活且可扩展的代理体系结构。我们介绍了MinedoJo，这是一个建立在流行的Minecraft游戏上的新框架，该游戏具有模拟套件，其中包含数千种不同的开放式任务，以及带有Minecraft视频，教程，Wiki页面和论坛讨论的Internet规模知识库。使用Minedojo的数据，我们提出了一种新型的代理学习算法，该算法利用大型预训练的视频语言模型作为学习的奖励功能。我们的代理商能够解决以自由形式的语言指定的各种开放式任务，而无需任何手动设计的密集塑造奖励。我们开源的仿真套件和知识库（https://minedojo.org），以促进研究的研究，以通常具有能力的体现药物的目标。

translated by 谷歌翻译